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互联 网 金融 平台 中 高 违约 风险 用 户 识别 算法 
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摘 要 : 在 我 国 金融 科技 不 断 创新 的 背景 下 ， 互 联网 金融 平台 中 通过 网 络 分 析 技 术 开 展 用 户 风险 识别 已 经 成 为 当前 的 


传播 特征 构建 模型 算法 识别 互联 网 金融 平台 的 高 风险 用 户 。 在 构建 基于 阔 值 传播 和 随机 传播 的 SIS 模型 和 SIR 模型 基 
础 上 , 将 模型 转换 为 可 评价 用 户 风 险 值 的 算法 , 并 进一步 与 实际 违约 数据 进行 验证 对 比 。 对 比 结果 显示 在 前 5% 和 10% 
高 风险 群体 划分 条 件 下 ， 算 法 具有 较 高 的 召回 率 和 良好 的 结构 关联 性 。 
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Identification algorithm of high breaching risk member for Internet financial platform 


Yang Xiaohui, Guo Binghuif, Mi Zhilong, Zheng Zhiming 
(School of Mathematics &Systems Science, Beihang University, Beijing 100191, China) 


Abstract: At the background of increasingly developed financial technology, identifying of high-risk members through network 
analysis method on internet financial platform has become a newly hot research area. In this paper, we studied loan transaction 
data of an internet financial platform, and identified the high-risk members by analyzing the propagation behavior of the loan 
network. We established the SIS model and SIR model based on threshold propagation and random propagation, respectively. 
After that, we generated an algorithm to evaluate the users' risk value. Furthermore, we compared it with the actual defaulting 
data. In terms of the top 5% and 10% high risk group division, the results show that we can achieve high recall rate and good 
structural correlation with the algorithm. 
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网 络 关 联结 构 条 件 下 进行 了 建 模 与 仿真 ， 陈 庭 强 等 人 "" 系统 分 
析 在 复杂 网 络 上 的 信用 风险 传染 行为 演化 机 制 ; 王 申 侃 等 人 六 

随 着 我 国 经 济 的 鞍 勃 发 展 和 金融 科技 的 不 断 创 新 ， 联 网 金 ”” 通过 信息 不 对 称 理论 和 线性 回归 分 析 法 ， 研 究 了 借款 利率 、 借 
融 平 台 在 金融 市 场 中 迅速 发 展 壮大 。 我 国 的 互联 网 金融 平台 在 。 款 期 限 、 信 用 评级 等 因素 同 违约 率 之 间 的 相关 性 ; 丁 岗 等 人 "" 
个 人 借贷 频繁 化 的 背景 下 ， 过 互联 网 平台 实现 贷款 业务 的 网 络 。 通过 在 初级 学 习 器 、 次 级 学 习 器 的 基础 上 构建 集成 策略 模型 ， 
化 运营 ， 其 中 最 典型 的 代表 是 P2P 借贷 平台 ， 熊 亚 骅 等 对 P2P ”对 P2P 借贷 中 用 户 的 违约 风险 进行 评估 和 预测 ; 唐 剑 琴 等 信 
并 贷 的 信用 机 理 、 理 论 基础 、 风 险 来 源 等 进行 了 细致 探讨 " 。 ”通过 改进 后 的 C4.5 基本 决策 树 模型 ， 对 信用 进行 评估 ,得 到 了 


a 
区 


为 有 效 保障 互联 网 金融 平台 在 政策 法 规 之 下 健康 地 融入 现 有 金 ” 解释 力 较 强 的 结论 。 

融 体 系 ， 数 据 和 网 络 分 析 技术 构建 控制 系统 风险 模型 、 开 展 用 在 互联 网 金融 平台 中 ， 由 于 信用 画像 基于 互联 网 数据 而 非 

户 风 险 等 级 识别 等 研究 已 经 成 为 当前 具有 现实 意义 的 前 沿 热点 。 实际 业务 人 员 接 触 获 得 ， 用 户 违约 风险 预测 大 多 基于 对 用 户 信 

领域 。 用 风险 与 用 户 特征 之 间 的 关联 分 析 ， 而 基于 网 络 关系 的 可 能 会 
前 已 经 有 学 者 从 不 同 角度 对 违约 风险 开展 了 研究 工作 。 影响 用 户 违约 的 因素 还 没有 被 挖掘 出 来 。 本 文 在 对 实际 交易 数 


王 书 斌 等 人 对 P2P 网 贷 违 约 风险 及 其 传染 性 评估 的 现状 及 方 ”” 据 和 用 户 网 络 关联 结构 分 析 的 基础 上 ， 针 对 某 互联 网 金融 中 介 
法 进行 了 综述 研究 ; 王 倩 等 人 "” 对 信用 违约 的 风险 传染 模式 及 ”平台 中 被 动 违约 用 户 行为 展开 研究 ， 发 现 了 其 中 的 债务 违约 传 


规律 建 模 并 给 出 了 实证 ; 李 杰 汀 "将 关联 信用 风险 传染 在 复杂 ”” 递 特征 并 使 用 复杂 网 络 传染 扩散 模型 构建 了 面向 被 动 违 约 高 危 
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群体 识别 的 模型 及 相关 算法 。 易 违约 ，eij = 0 表示 交易 不 违约 。 用 户 的 被 违约 金额 gj = 
通过 定义 确定 型 和 阔 值 型 的 传播 模式 ， 本 文 在 违约 免疫 和 卫 4yyai ey, 车 用 户 被 违约 金额 的 闹 什 分 布 记 为 {Dj， 定 义 用 户 
非 违约 免疫 两 种 情况 下 提出 了 反映 上 级 违约 造成 被 动 违 约 的 风 ”被 传播 违约 的 次 数 为 用 户 的 传播 违约 力 大 小 ， 反 映 用 户 在 该 借 
险 传播 模型 。 将 基于 社交 网 络 的 互联 网 金融 平台 系统 性 风险 和 ” 贷 网 络 “ 被 违约 ”的 强 弱 大 小 ， 记 为 {Fj}， 记 整个 扩散 过 程 中 韦 
高 危 群 体 识别 量化 。 该 模型 使 用 复杂 网 络 结构 参数 度 分 布 、 。 约 风险 传播 到 的 “被 违约 ”用 户 的 集合 为 Lie(x)。 则 以 基于 SIS 
PageRank 中 心性 、 介 数 中 心性 等 作为 扩散 行为 基本 参数 , 通 确定 型 的 阔 值 传播 模型 (QSIS) 为 例 ， 整 个 过 程 可 以 用 下 述 模型 
过 网 络 传播 模拟 得 到 了 单个 用 户 违约 风险 传播 风险 评价 值 。 经 。。 5 描述 : 
过 与 平台 实际 数据 对 比 发 现 ， 模 型 在 识别 借贷 关系 中 容易 被 他 a 初 始 状态 ， 所 有 人 都 处 于 未 违约 状态 (S) ， 随 机 使 一 
人 违约 影响 并 且 容易 导致 他 人 违约 的 高 危 群体 具有 一 定 效果 。 ”分 用 户 变 为 违约 状态 〈I) ， 即 随机 使 一 部 分 mi 由 0 变 为 1， 于 
a a 
ij To 
1.1 模型 思路 b) 违 约 的 交易 金额 累加 到 债权 人 身上 ， 一 旦 债权 人 被 违约 
在 对 某 互联 网 金融 平台 借贷 数据 的 分 析 中 发 现 ， 给 系统 带 。 金额 大 于 所 能 承受 的 闹 值 , 即 当 dj = 史 4ijaij e > 9j, 该 债权 人 
来 风险 的 逾期 违约 交易 中 ， 有 相当 比例 是 因为 用 户 在 借贷 链条 状态 由 S 变 成 [， 该 被 违约 的 用 户 将 违约 其 持 有 的 确定 的 未 到 
中 的 上 级 节点 违约 所 导致。 本 文 针对 借贷 链条 中 的 风险 传播 行 ”期 交易 ， 违 约 金 额 累加 到 债权 人 身上 。 
为 ， 提 出 基于 被 违约 闹 值 和 传播 影响 力 的 违约 风险 传播 识别 模 判断 所 有 用 户 状态 不 再 改变 ， 实 现 一 次 网 络 传播 过 程 ， 
型. 用户 被 违约 阔 值 gi 的 设 定 依据 是 过 去 12 个 月 中 该 用 户 所 有 新 一 轮 传 播 时 ， 用 户 均 恢 复 到 未 违约 状态 (S)， 重 新 具有 违约 
借贷 交易 的 平均 值 。 由 于 在 实际 的 金融 风险 控制 中 ， 用 户 一 旦 ”的 可 能 ， 随 机 使 一 部 分 用 户 违约 ， 开 始 下 一 轮 传播 。 
产生 预期 违约 交易 ， 互 联网 金融 平台 一 般 会 根据 实际 情况 限制 中 反复 进行 上 述 的 模拟 传播 过 程 ， 记 录 下 每 个 用 户 被 传染 
该 用 户 的 借贷 行为 。 因 此 ， 本 文 提出 无 限制 规则 的 QSIS 模型 。 ”违约 变 为 1 状态 的 次 数 ， 以 此 定义 为 他 们 的 违约 传播 力 大 小 ， 
来 描述 无 限制 违约 用 户 借贷 行为 的 系统 平台 风险 识别 ， 而 用 有 当前 后 两 次 传播 结束 后 被 违约 的 用 户 集合 Lie(x) 相 同时 ， 传 播 
限制 规则 的 QSIR 模型 来 描述 有 限制 违约 用 户 借贷 行为 的 系统 过 程 结束 。 
平台 风险 识别 。 其 中 , 用 户 分 为 未 违约 用 户 (S)、 违约 用 户 (D) ”1.3 ”基于 概率 型 违约 风险 传播 的 识别 模型 PSIS 
和 限制 交易 用 户 (R) 。 进 一 步 从 复杂 网 络 的 角度 出 发 ， 当 同时 概率 型 传播 模型 PSIS 与 确定 型 传播 模型 QSIS 的 区 别 在 
有 多 笔 交 易 时 考虑 网 络 的 结构 对 传播 的 影响 ,在 度 分 布 中 心性 、 于， 当 一 个 用 户 违约 时 ， 不 再 确定 性 地 违约 某 一 笔 交易 ， 而 是 
介 数 中 心性 和 pagerank 中 心性 三 种 结构 参数 的 条 件 下 考虑 确定 。 以 一 定 的 概率 违约 某 一 笔 或 者 某 几 笔 交易 。 在 本 文中 ， 具 体 步 
型 传播 和 概率 传播 两 种 不 同 的 传播 模式 ,研究 思路 如 图 1 所 示 。 ”又 与 上 述 QSIS 模型 的 步 又 的 在 第 一 和 第 二 步 上 有 区 别 ， 即 当 
用 户 i 违约 时 , i 所 涉及 到 的 交易 By 会 以 一 定 的 概率 违约 ， 这 个 
变化 的 概率 与 网 络 以 上 三 个 结构 参数 相关 。 
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图 1 模型 总 体 结构 区 


1.2 基于 确定 型 违约 风险 传播 的 识别 模型 QSIS 

以 实际 交易 数据 建立 网 络 G(V,E)， 节 点 V 表 示 所 有 交易 用 
户 的 集合 , 在 QSIS 模型 中 , 将 用 户 分 为 两 种 类 型 的 节点 : 未 违 
约 用 户 (S) 和 违约 用 户 (1)， 记 Sw 为 未 违约 用 户 的 集合 , 710%) 
为 违约 用 户 的 集合 。E 表 示 网 络 中 用 户 之 间 交 易 的 集合 ， 边 Ey (wa) ET 


ta enn ee 
网 图 2 无 限制 规则 条 件 下 的 基于 违约 风险 传播 的 识别 模型 
站 之 间 往 往 有 多 笔 交 易 ， 在 研究 扩散 过 程 时 ， 通 过 重 边 压缩 的 


方法 处 理 两 两 用 户 之 间 的 多 重 交 易 。 a 1.4 ”基于 两 种 风险 传播 的 有 限制 模型 QSIR 和 PSIR 


被 违约 金额 是 否 大 于 阔 值 ? 
dj = Aijaijei; + dj 


大 值 的 模拟 结果 后 ， 选 取 两 两 用 户 之 间 所 有 交易 的 最 大 交易 金 由 于 实际 风险 控制 需要 ， 互 联网 金融 平台 可 能 会 对 违约 风 
额 作 为 该 用 户 之 间 的 交易 金额 。 险 较 大 的 用 户 限 制 其 在 平台 中 的 借入 借 出 交易 。 在 有 限制 交易 
记 用 户 i 的 状态 为 ni,ni = 1 表示 违约 ,mi = Es 约 ; 的 条 件 下 ， 本 文 提出 有 限制 的 确定 性 和 概率 型 违约 风险 传播 过 


ef 


记 用 户 2 


旧 交 易 Bij 的 状态 为 eij, eij = 1 表示 该 条 用 户 之 间 的 交 。 ” 程 , 并 构建 相应 的 识别 模型 QSIR 和 PSIR。QSIR 与 QSIS 在 于 
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每 一 轮 传播 中 ， 使 用 随机 免疫 策略 随机 免疫 一 部 分 用 户 ， 使 其 2.1.2 对 比 数据 组 数据 
不 受 上 级 节点 的 违约 影响 也 不 能 将 违约 传播 至 下 级 节点 。 选取 2016.7.22-2017.7.22 的 上 述 用 户 的 交易 数据 作为 对 比 
数据 组 ， 同 样 ， 在 2016.7.22-2017.7.22 间 涉 及 到 的 交易 
3312 人 , 共有 537146 条 交易 , 其 中 违约 交易 有 11765 条 记录 ， 
有 711 人 违约 他 人 , 其 中 传播 违约 的 人 数 有 43 人 。 记 对 比 数据 
集 为 C(x)， 将 本 文 的 模型 用 在 对 比 数据 集 上 ， 计 算 该 数据 集 下 
的 召回 率 ， 记 为 R(x)。 
2.2 网 络 结构 特征 参数 

本 文 使 用 到 以 下 三 个 网 络 结构 特征 参数 : 
a) 有 向 网 络 的 度 中 心性 。 出 度 kr = 2? 1 hij， 入 度 : lp = 
>7-14ij， 其 中 {4jj} 是 网 络 中 的 邻接 和 矩阵。 
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了 机 使 一部分 用 户 违约 (ni=1) 


违约 用 户 的 交易 以 某 
种 恨 率 违约 (PSIR) 


违约 (QSIR)} 


Ct ee (是 人 
di = Aijaiei; + dj We 


本 
b)pagerank 中 心性 。Xi = Qj hi zou 十 Bb， 其 中 g 和 Bp 是 正 
Fi 


图 3 有 限制 规则 条 件 下 的 基于 违约 风险 传播 的 识别 模型 


常数 。 


©) 介 数 中 心性 。xi = 其 中 , ni 是 从 s 到 t 经 过 i 的 


2 ”高 风险 用 户 识别 算法 实现 
高 风险 用 户 识别 算法 实现 测 地 路 径 数量 ，g ,为 从 s 到 1 的 测 地 路 径 总 数 。 


2.1 数据 来 源 及 处 理 2.3 阁 值 选择 
2.1.1 原始 数据 2015.5.14-2017.4.24 之 前 选取 的 3312 个 用 户 间 共 有 860999 


数据 来 自 某 金融 借贷 平台 ， 选 取 其 中 用 户 3312 个 ， 选 取 ”条 交易 记录 ， 其 中 违约 交易 共有 16457 条 ， 在 95% 的 置信 区 间 
2015.5.14-2017.4.24 之 间 的 所 有 交易 数据 ， 共 860999 条 交易 ， 内， 所 有 违约 交易 涉及 到 的 金额 分 布 如 图 6 所 示 。 
其 中 违约 用 户 有 872 个 ， 记 这 872 个 用 户 的 序列 为 D(x); 经 分 
析 后 发 现 ， 由 于 一 方 债务 人 的 违约 ， 导 致 该 债权 人 违约 的 用 户 2 
有 213 个 ， 将 这 些 用 户 的 序列 记 为 L(Y)。 对 用 户 之 间 多 个 交易 
行 重 边 压 缩 并 构建 网 络 (图 4) ， 并 从 交易 网 络 中 抽取 出 违 
约 交 易 构 成 子 网 络 (图 5) 。 
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妈 6 ”所 有 违约 交易 金额 分 布 图 (95% 置 信 区 间 ) 


95% 置 信 区 间 下 的 所 有 交易 的 平均 金额 是 10367， 因 此 本 
文选 取 从 100 到 10000 均匀 分 布 的 100 个 阔 值 做 实验 。 
2.4 实际 数据 验证 

本 文 在 100-10000 间 均 匀 地 选取 100 个 阔 值 ， 并 分 别 在 
QSIS、PSIS、QSIR、PSIR 等 四 种 模型 下 进行 违约 风险 扩散 古 
究 。 在 每 一 种 模型 下 , 分 别 分 析 度 分 布 、 介 数 分 布 、pagerank 分 


了 


图 4 ” 某 金 融 借贷 平台 2015.5.14-2017.4.24 用 户 交 易 结构 图 


es 布下 扩散 行为 的 异同 ， 在 每 一 种 扩散 模式 下 ， 得 到 被 违约 的 用 
a ee Pe 户 集合 Lie(x) 和 这 些 用 户 的 违约 力 大 小 分 布 {Fj}。 比较 不 同 扩散 
四 模型 下 对 违约 用 户 和 因 风 险 扩散 而 “被 违约 ”的 用 户 的 预测 精 
六 度 ， 本 文中 通过 定义 召回 率 来 刻画 违约 用 户 中 因 风 险 扩散 而 韦 


约 的 用 户 比例 的 预测 精度 ， 并 以 此 作为 评价 模型 好 坏 的 标准 。 
0 召回 率 的 值 是 预测 正确 的 实际 由 于 扩散 而 违约 的 人 与 预测 正确 
5 的 的 实际 违约 人 数 之 比 ， 即 

下 Lie(x) NL(x) 

Lie(x) N D(x) 


图 5 2015.5.14-2017.4.24 违约 交易 结构 图 


三 ChinaXi 合作 期 刊 ， 
录用 稿 慧 ， 等 : 互联 网 金融 平 台中 高 违约 风险 用 户 识别 算法 
召回 率 的 定义 反映 了 违约 用 户 中 经 扩散 违约 的 用 户 的 预测 表 4 前 10% 用 户 QSIR 模型 分 析 
比例 ， 反 映 了 局 部 扩散 违约 用 户 预测 的 准确 率 大 小 ， 是 衡量 对 Lie(x) Lie(x) 如 回 率 
传播 违约 用 户 预 测 精度 的 有 利 依据 。 分 别 对 比 高 危 群 体 前 10% SOI i ee po 
和 5% 的 用 户 在 不 同 模型 下 的 扩散 结果 。 py i ee 
在 PSIS 模型 和 QSIS 模型 下 ， 根 据 构 建 的 交易 网 络 ， 用 户 ee fi 56 A 100% 

分 为 两 类 : 未 违约 用 户 〈S) 和 违约 用 户 〈I) ， 每 次 传播 随机 bel oonheas 109 有 4404% 19.72% 
选择 600 个 用 户 违约 ,看 违约 风险 在 网 络 中 的 传播 情况 ,在 PSIR 
模型 和 QSIR 模型 下 , 根据 构建 的 交易 网 络 , 将 用 户 分 为 三 类 对 比 表 3 和 4 可 以 看 出 , PSIR 模型 下 以 度 分 布 传播 时 ,对 
未 违约 用 户 〈《S) 和 违约 用 户 (I) ， 和 拉 黑 用 户 (R， 也 叫 限制 。” 违约 用 户 中 的 传播 违约 用 户 预 测 的 准确 率 最 高 。 在 原始 数据 集 
交易 用 户 ) ， 同 样 每 次 传播 随机 选择 600 个 用 户 违约 ， 看 违约 。 上 ， 无 论 是 以 哪 一 种 结构 参数 下 的 扩散 模型 ， 以 概率 传播 时 的 
风险 在 网 络 中 的 传播 情况 。 当 风险 扩散 过 程 中 “被 违约 ”的 1 SIR 模型 对 违约 用 户 中 的 传播 违约 用 户 的 准确 率 比 确定 传播 时 
户 集合 Lie(x) 不 再 发 生变 化 时 , 扩散 过 程 收敛 , 停止 传播 。 计 算 ”的 SIR 模型 高 ， 整 体 来 说 ， 对 比 数 据 集 下 预测 的 准确 率 偏 低 。 
出 Lie(x) 中 用 户 F& 排 序 后 的 序列 , 选取 高 危 性 前 10% 的 用 户 , 此 而 在 实际 中 ， 人 们 往往 关注 风险 特别 大 的 高 危 群体 ， 在 本 
时 Lie(x) 指 的 是 影响 力 大 小 {fi} 从 高 到 低 排序 的 前 332 个 用 户 。 ”文中 ， 为 了 进一步 评价 模型 对 高 危 群 体 的 预测 准确 度 ， 计 算出 
比 无 限制 借贷 模式 下 ,两 种 传播 方式 下 的 预测 精度 。 对 比 QSIS ”用 户 传播 影响 力 玉 排序 后 的 序列 , 并 取 高 危 性 前 5% 的 用 户 序列 ， 

= 和 PSIS 模型 下 前 10% 的 高 危 用 户 的 相关 结论 如 表 1 所 示 。 记 为 新 的 Lie(x)， 此 时 Lie(x) 指 的 是 影响 力 大 小 {i} 从 高 到 低 排 

= 表 1 前 10% 用 户 QSIS 模型 分 析 序 的 前 166 个 用 户 ， 在 无 限制 借贷 行为 模式 下 ， 对 比 两 种 传播 

[ee Lie(x) Lie(x) 召回 率 方式 下 的 预测 精度 。 对 比 QSIS 和 PSIS 模型 前 5% 的 高 危 用 户 

Es ob i Re 的 相关 结论 如 表 5、6 所 示 . 

© degree 110 49 44.55% 22.53% 表 5 前 5% 用户 QSIS 模型 分 析 

LO pagerank 10 10 100% 100% Lie(x) Lie(x) 召 区 

3 betweenness 110 46 41.82% 19.72% > N D(x) NL(X) J R(x) 

到 表 2 前 10% 用 户 PSIS 模型 分 析 degree 100 30 30.00% 17.19% 

到 人 Lie(x) Lie(x) ee 召 蕊 pagerank 10 10 100% 100% 

ND(x) NL(x) R(x) betweenness 61 31 50.85% 24.23% 

:一 degree 137 71 51.82% 10.17% 

> pagerank 91 34 37.36% 18.42% 表 6 前 5% 用 户 PSIS 模型 分 析 

三 betweenness 89 30 33.73% 7.69% ee Lie(x) Lie(x) Ee 召回 率 

- ND(x) NL(x) R(x) 

OO 对 原始 数据 的 结论 进行 分 析 ， 对 比 表 1 和 表 2 可 以 看 出 ， ee 131 43 3282% 12.02% 
无 限制 借贷 模式 ，PSIS 模型 下 以 度 分 布 传播 时 ， 对 违约 用 户 中 age 84 19 22 .64% 13.15% 
的 传播 违约 用 户 预 测 的 准确 率 最 高 。 整 体 上 从 对 违约 用 户 中 的 EC 41 19 4634% 1457% 


传播 用 户 的 预测 比例 来 看 ，QSIS 模型 的 预测 效果 强 于 PSIS 模 
型 。 而 在 QSIS 模型 中 以 结构 参数 pagerank 预测 的 高 危 用 户 几 对 比 表 1-5 发 现 , PSIS 模型 下 对 前 10% 的 高 危 群体 中 传播 
乎 全 是 传播 违约 的 用 户 ， 这 一 结论 在 对 比 数据 集 上 也 成 立 。 违约 用 户 的 预测 精度 高 于 对 前 5% 的 高 危 群体 中 传播 违约 用 户 
同样 , 对 于 有 限制 借贷 模式 ,计算 LieCxo) 中 用 户 玉 排序 后 的 ”的 预测 精度 , 这 个 结论 对 QSIS 模型 依然 成 立 , 通过 对 比 表 2 和 
序列 ， 选 取 高 危 性 前 10% 的 用 户 ， 此 时 Lie(x) 指 的 是 影响 力 大 “6 就 可 以 得 知 。 这 说 明 无 限制 借贷 模式 对 于 借贷 网 络 中 传播 风 
小 [加 从 高 到 低 排序 的 前 332 个 用 户 ， 并 对 比 两 种 传 揪 方 式 下 险 更 高 的 用 户 预 测 的 准确 度 会 下 降 。 观 察 表 5 可 以 发 现 一 个 跟 
的 预测 精度 。 对 比 QSIR 和 PSIR 的 相关 结论 如 下 表 所 示 ， 表 1 相同 的 现象, 结构 参数 pagerank 下 预测 高 危 用 户 的 数量 虽 
ed 然 不 多 , 但 是 找到 的 全 是 传播 违约 的 用 户 , 精度 达到 了 100%， 
ee Die mo as 结论 在 对 比 数据 集 上 也 成立 ， 
i i 入 同样 , 对 于 有 限制 借贷 模式 , 计算 出 Lie(x) 中 用 户 所 排序 后 
人 人 0 的 序列 ， 选 取 高 危 性 前 5% 的 用 户 ,此 时 Lie(x) 指 的 是 影响 力 大 
ee pa 0 小 [加 从 高 到 低 排序 的 前 166 个 用 户 ， 并 对 比 两 种 传播 方式 下 
0 oe 的 预测 精度 。 对 比 QSIR 和 PSIR 模型 前 5% 的 高 危 用 户 的 相关 


结论 如 表 7、8 所 示 。 


录用 稿 
表 7 前 5% 用户 PSIR 模型 分 析 
Lie(x) Lie(x) 召回 率 
PSIR 
ND(x) NL(x) R(x) 
degree 128 45 35.16% 23.81% 
pagerank 140 50 35.77% 24.39% 
betweenness 73 40 54.93% 16.67% 
表 8 前 5% 用 户 QSIR 模型 分 析 
Lie(x) Lie(x) 召回 率 
QSIR 召回 率 
ND(x) NL(x) R(x) 
degree 103 30 29.13% 17.19% 
pagerank 100 34 33.98% 100% 
betweenness 61 30 49.15% 24.32% 


对 比 表 3 和 7 后， 对 原始 数据 集 的 


模拟 结果 进行 分 析 ， 发 
现 整体 上 PSIR 模型 下 对 前 10% 的 高 危 群 体 中 传播 违约 用 户 的 


户 


预测 精 
但 是 介 数 传播 下 
通过 对 比 表 4 和 
络 传 播 风险 中 风险 更 高 的 用 

传播 下 对 更 高 危 的 传播 违约 用 户 的 预计 
LO 比较 两 个 数据 集 下 的 发 现 对 
\ 果 更 差 ， 但 是 pagerank 的 集中 预测 性 
在 对 比 上 述 表 1~8 后 发 现 ， 对 原始 


8 就 可 以 得 知 。 这 说 明 
户 预 测 的 准 


“二 EE 
结果 ， 


度 高 于 对 前 5% 的 高 危 群 体 中 传播 违约 用 
的 结果 例外 ; 这 个 结论 对 


能 更 好 。 


QSIS 模型 依然 成 立 


限制 借贷 模式 对 于 
确 


和 
虑 从 


的 预测 精度 ， 


? 


网 


降 ， 但 是 介 数 


1 精度 更 高 。 


比 数据 集 整 体 上 预测 效 


数据 集 
模型 (如 


中 分析, 总 的 来 说 ,采用 随机 免疫 策略 后 的 
对 于 借贷 网 络 中 传播 违约 的 高 危 用 户 的 
始 数据 集 来 说 ， 这 四 
度 高 于 对 前 5% 高 危 用 户 的 预测 精 
其 他 三 种 模型 下 对 于 前 5% 的 高 危 传播 
中 心性 均 取 得 比 其 他 两 种 结构 参数 更 好 


户 


谨 . 
又 ; 


种 模型 下 对 于 前 10% 的 


eS 


司 


预测 精度 更 好 ， 对 于 
危 


站 


风险 
的 结果 。 而 对 前 10% 


高 危 传 播 风 险 用 户 的 预测 中 , 除了 PSIS 


模型 外 , 其 他 三 种 模 


下 PageRank 中 心性 扩散 下 的 效果 均 比 其 他 两 种 结构 参数 好 。 


对 比 两 种 数 结果， 发 现 整 
预测 效果 不 及 原始 数据 集 好 。 


原始 数据 集 有 接近 两 年 的 


于 对 比 数 j 
数据 。 某 种 程度 上 说 明 ， 本 文中 的 


体 而 言 ， 对 比 数据 
昌 是 一 年 的 数据 ， 


漆 


型 对 于 较 长 时 间 数 据 预 测 效 果 更 好 ， 而 


对 于 较 短 时 间 数 据 集 


预测 , 虽然 整体 上 预测 精度 有 所 下 降 , 但 结构 参数 pagerank 下 


昌 户 的 预测 精 
本 文中 除 QSIS 模型 
户 的 预测 ， 介 数 


的 模拟 结果 进行 
PSIR 和 QSIR) 


原 


? 


的 


名 


二 


的 
而 
模 


的 


预测 的 不 多 的 高 危 用 户 都 是 传播 违约 


100%， 而 且 这 种 现象 出 现 比例 高 于 对 
岗 的 比例 ， 这 说 明 短 期 数据 集 对 节点 的 
效果 更 好 。 
2.5 ”模型 对 比分 析 

上 述 对 结果 的 分 析 是 从 准确 性 的 角 
三 种 结构 参数 下 四 种 
选取 阐 值 5000 下 的 具体 用 户 的 传播 影 
进行 作 图 。 原 始 数据 集 下 的 计算 结果 如 


原始 数据 集 进行 分 析 
传播 违约 集中 性 的 预 


度 出 发 的 ， 接 下 来 观 


向 力 丘 的 分 布 ， 归 一 化 
图 7.1, 图 8.1， 图 9.1 


相应 地 ， 对 比 数据 集 下 的 计算 结果 如 图 


7.2、8.2、9.2 所 示 。 
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传播 模式 QSIS、QSIR、PSIS、PSIR 下 。 
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图 7.1 中 四 张 分 图 分 别 是 在 原始 数据 集 上 ， 以 结构 参数 度 


分 布 传播 时 ， 采 用 扩散 模型 QSIS、PSIS、QSIR、PSIR 模 把 
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图 8 对 比 数据 集中 介 数 分 布 传播 下 四 种 模型 FE 分 布 图 


图 8.1 中 四 张 分 图 分 别 是 在 原始 数据 集 上 ， 以 结构 参数 一 
一 介 数 中 心性 传播 时 , 采用 扩散 模型 QSIS、PSIS、QSIR、PSIR 
模拟 下 的 用 户 违 约 传播 影响 力 所 的 分 布 图 。 而 图 8.2 是 在 对 比 
数据 集 上 的 实验 结果 。 
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图 9 原始 数据 集 pagerank 传播 下 四 种 模型 分布 图 


PsiS 
0 ls 0 
10? 
107 
0 
EE 3 
103 
Woo 0 04 0 0 10 60 065 070 075 080 085 030 095 100 
Influene IFiuence 
QSIR 0 PSIR, 
0 0 
FE 10: 
10+ 0: 
0 7 0 0 0 io 00 0 
neme Infeme 


图 9 ”对比 数据 集 pagerank 传播 下 四 种 模型 Fi 分布 图 
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图 9.1 中 四 张 分 图 分 别 是 在 原始 数据 集 上 ， 以 结构 参数 
pagerank 中 心性 传播 时 ， 采 用 扩散 模型 QSIS、PSIS、QSIR、 


PSIR 模拟 下 的 用 户 违 约 传播 影响 力 F 的 分 布 图 。 而 图 9.2 是 在 


对 比 数据 集 上 的 实验 结果 。 


比较 上 述 三 种 网 络 结构 参数 下 的 图 会 发 现 ， 同 一 网 络 结构 


参数 下 ， 不 同 扩散 模式 下 用 户 的 传播 违约 力 分 布 差异 不 大 ， 基 
本 上 服从 指数 分 布 。 而 PSIS 模型 中 介 数 和 pagerank 传播 下 的 


图 像 相 比 其 他 扩散 模型 有 显著 区 别 ， 其 他 模型 中 用 户 的 影响 力 


分 布 符合 指数 分 布 ， 而 在 这 两 种 模式 下 用 户 的 影响 力 分 布 接近 


于 正 态 分 布 。 通 过 对 比 原 始 数据 集 和 对 比 数据 集 下 的 结果 ， 发 
现 相同 传播 模式 下 Fi 的 分 布 几 乎 相同 ， 一 定 程度 上 说 明了 模型 


对 于 不 同 的 数据 集 具有 一 定 的 鲁 棒 性 。 而 相同 扩散 模式 


种 网 络 结构 参数 下 扩散 的 所 的 分 布 却 十 分 接近 。 


上 述 图 表 对 比 了 阔 值 5000 下 ， 不 同 结构 参数 和 不 同 传播 


模式 下 的 玉 分 布 图 ， 为 了 进一步 观察 不 同 阔 值 下 的 所 分 布 ， 在 


PSIS 模型 下 以 介 数 中 心性 传播 时 为 例 ， 在 600 到 9600 之 间 等 


距 选 取 10 个 阔 值 ， 其 违约 影响 力 大 小 分 布 见 下 图 ; 


PsIs 


图 10 不 同 阐 值 条 件 下 F; 的 分 布 图 


从 图 10 可 以 看 出 , 闵 值 为 600 时 , 出 现 影响 力 都 很 大 的 情 
况 ， 这 可 以 理解 为 由 于 债权 人 能 承受 的 被 违约 金额 太 低 了 ， 此 
时 每 一 次 债务 人 违约 ， 几 乎 都 会 导致 相应 的 债权 人 违约 ， 而 当 
病 值 为 1600 到 9600 之 间 时 ， 用 户 的 传播 违约 影响 力 大 小 近似 


呈现 正 态 分 布 ， 此 时 用 户 可 以 被 有 效 区 分 。 


3 ”结束 语 


本 文 以 某 互 联网 金融 平台 2015.5.14-2017.4.24 时 间 段 内 的 
实际 交易 数据 为 对 象 作 为 原始 数据 集 ， 通 过 选择 该 平台 
2016.722-2017.7.22 的 相应 交易 作为 对 比 数据 集 。 通过 分 析 违 约 


交易 传播 的 行为 特征 提出 相应 的 计算 模型 以 及 高 风险 ) 
算法 ， 并 用 在 两 个 数据 集 上 。 将 算法 结果 与 实际 数据 | 


T 


户 识别 


对 后 发 


现 该 算法 具有 较 好 预测 效果 ， 对 互联 网 金融 平台 系统 性 


风险 预 


测 及 防范 有 广泛 应 用 价值 。 
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